974 resultados para Validação Cruzada k-fold


Relevância:

100.00% 100.00%

Publicador:

Resumo:

A partir de 2011, ocorreram e ainda ocorrerão eventos de grande repercussão para a cidade do Rio de Janeiro, como a conferência Rio+20 das Nações Unidas e eventos esportivos de grande importância mundial (Copa do Mundo de Futebol, Olimpíadas e Paraolimpíadas). Estes acontecimentos possibilitam a atração de recursos financeiros para a cidade, assim como a geração de empregos, melhorias de infraestrutura e valorização imobiliária, tanto territorial quanto predial. Ao optar por um imóvel residencial em determinado bairro, não se avalia apenas o imóvel, mas também as facilidades urbanas disponíveis na localidade. Neste contexto, foi possível definir uma interpretação qualitativa linguística inerente aos bairros da cidade do Rio de Janeiro, integrando-se três técnicas de Inteligência Computacional para a avaliação de benefícios: Lógica Fuzzy, Máquina de Vetores Suporte e Algoritmos Genéticos. A base de dados foi construída com informações da web e institutos governamentais, evidenciando o custo de imóveis residenciais, benefícios e fragilidades dos bairros da cidade. Implementou-se inicialmente a Lógica Fuzzy como um modelo não supervisionado de agrupamento através das Regras Elipsoidais pelo Princípio de Extensão com o uso da Distância de Mahalanobis, configurando-se de forma inferencial os grupos de designação linguística (Bom, Regular e Ruim) de acordo com doze características urbanas. A partir desta discriminação, foi tangível o uso da Máquina de Vetores Suporte integrado aos Algoritmos Genéticos como um método supervisionado, com o fim de buscar/selecionar o menor subconjunto das variáveis presentes no agrupamento que melhor classifique os bairros (Princípio da Parcimônia). A análise das taxas de erro possibilitou a escolha do melhor modelo de classificação com redução do espaço de variáveis, resultando em um subconjunto que contém informações sobre: IDH, quantidade de linhas de ônibus, instituições de ensino, valor m médio, espaços ao ar livre, locais de entretenimento e crimes. A modelagem que combinou as três técnicas de Inteligência Computacional hierarquizou os bairros do Rio de Janeiro com taxas de erros aceitáveis, colaborando na tomada de decisão para a compra e venda de imóveis residenciais. Quando se trata de transporte público na cidade em questão, foi possível perceber que a malha rodoviária ainda é a prioritária

Relevância:

100.00% 100.00%

Publicador:

Resumo:

We present a new wrapper feature selection algorithm for human detection. This algorithm is a hybrid featureselection approach combining the benefits of filter and wrapper methods. It allows the selection of an optimalfeature vector that well represents the shapes of the subjects in the images. In detail, the proposed featureselection algorithm adopts the k-fold subsampling and sequential backward elimination approach, while thestandard linear support vector machine (SVM) is used as the classifier for human detection. We apply theproposed algorithm to the publicly accessible INRIA and ETH pedestrian full image datasets with the PASCALVOC evaluation criteria. Compared to other state of the arts algorithms, our feature selection based approachcan improve the detection speed of the SVM classifier by over 50% with up to 2% better detection accuracy.Our algorithm also outperforms the equivalent systems introduced in the deformable part model approach witharound 9% improvement in the detection accuracy

Relevância:

100.00% 100.00%

Publicador:

Resumo:

This paper presents an application of AMMI models - Additive Main effects and Multiplicative Interaction model - for a thorough study about the effect of the interaction between genotype and environment in multi-environments experiments with balanced data. Two methods of crossed validation are presented and the improvement of these methods through the correction of eigenvalues, being these rearranged by the isotonic regression. A comparative study between these methods is made, with real data. The results show that the EASTMENT & KRZANOWSKI (1982) method selects a more parsimonious model and when this method is improved with the correction of the eigenvalues, the number of components are not modified. GABRIEL (2002) method selects a huge number of terms to hold back in the model, and when this method is improved by the correction of eigenvalue, the number of terms diminishes. Therefore, the improvement of these methods through the correction of eigenvalues brings a great benefit from the practical point of view for the analyst of data proceeding from multi-ambient, since the selection of numbers of multiplicative terms represents a profit of the number of blocks (or repetitions), when the model AMMI is used, instead of the complete model.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

As azeitonas de mesa são consumidas e apreciadas em todo o mundo e, embora a sua classificação comercial não seja legalmente exigida, o Conselho Oleícola Internacional sugere que seja regulamentada com base na avaliação sensorial por um painel de provadores. A implementação de tal requer o cumprimento de diretrizes estabelecidas pelo Conselho Oleícola Internacional, resultando numa tarefa complexa, demorada e cujas avaliações não estão isentas de subjetividade. Neste trabalho, pela primeira vez, uma língua eletrónica foi utilizada com o intuito de classificar azeitonas de mesa em categorias comerciais, estipuladas com base na presença e na mediana das intensidades do defeito organolético predominante percebido pelo painel de provadores. Modelos de discriminação lineares foram estabelecidos com base em subconjuntos de sinais potenciométricos de sensores da língua eletrónica, selecionados recorrendo ao algoritmo de arrefecimento simulado. Os desempenhos qualitativo de previsão dos modelos de classificação estabelecidos foram avaliados recorrendo à técnica de validação cruzada leave-one-out e à técnica de validação cruzada K-folds com repetição, que permite minimizar o risco de sobreajustamento, permitindo obter resultados mais realistas. O potencial desta abordagem qualitativa, baseada nos perfis eletroquímicos gerados pela língua eletrónica, foi satisfatoriamente demonstrado: (i) na classificação correta (sensibilidades ≥ 93%) de soluções padrão (ácido n-butírico, 2-mercaptoetanol e ácido ciclohexanocarboxílico) de acordo com o defeito sensorial que mimetizam (butírico, pútrido ou sapateira); (ii) na classificação correta (sensibilidades ≥ 93%) de amostras de referência de azeitonas e salmouras (presença de um defeito único intenso) de acordo com o tipo de defeito percebido (avinhado-avinagrado, butírico, mofo, pútrido ou sapateira), e selecionadas pelo painel de provadores; e, (iii) na classificação correta (sensibilidade ≥ 86%) de amostras de azeitonas de mesa com grande heterogeneidade, contendo um ou mais defeitos organoléticos percebidos pelo painel de provadores nas azeitona e/ou salmouras, de acordo com a sua categoria comercial (azeitona extra sem defeito, extra, 1ª escolha, 2ª escolha e azeitonas que não podem ser comercializadas como azeitonas de mesa). Por fim, a capacidade língua eletrónica em quantificar as medianas das intensidades dos atributos negativos detetados pelo painel nas azeitonas de mesa foi demonstrada recorrendo a modelos de regressão linear múltipla-algoritmo de arrefecimento simulado, com base em subconjuntos selecionados de sinais gerados pela língua eletrónica durante a análise potenciométrica das azeitonas e salmouras. O xii desempenho de previsão dos modelos quantitativos foi validado recorrendo às mesmas duas técnicas de validação cruzada. Os modelos estabelcidos para cada um dos 5 defeitos sensoriais presentes nas amostras de azeitona de mesa, permitiram quantificar satisfatoriamente as medianas das intensidades dos defeitos (R² ≥ 0,97). Assim, a qualidade satisfatória dos resultados qualitativos e quantitativos alcançados permite antever, pela primeira vez, uma possível aplicação prática das línguas eletrónicas como uma ferramenta de análise sensorial de defeitos em azeitonas de mesa, podendo ser usada como uma técnica rápida, económica e útil na avaliação organolética de atributos negativos, complementar à tradicional análise sensorial por um painel de provadores.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)

Relevância:

100.00% 100.00%

Publicador:

Resumo:

O condicionamento cardiorrespiratório pode ser caracterizado como sendo um dos componentes da aptidão cardiorrespiratória, estando diretamente associado aos níveis de saúde e qualidade de vida. Existem formas diversas para se avaliar os níveis de condicionamento cardiorrespiratório durante a realização de exercícios, tanto de forma direta como indireta. Foi realizado um estudo do tipo transversal contando com idosos voluntários acima dos 60 anos, admitidos entre março de 2005 e abril de 2008, todos participantes do Projeto Idosos em Movimento Mantendo a Autonomia (IMMA), coordenado pelo Laboratório de Atividade Física e Promoção da Saúde (LABSAU) do Instituto de Educação Física e Desportos da Universidade do Estado do Rio de Janeiro (IEFD-UERJ) e implementado em parceria com a Universidade Aberta da Terceira Idade (UnATI-UERJ) com o objetivo de realizar a validação cruzada de equações para estimativa da ACR sem exercícios em amostra de idosos brasileiros. Portanto, esta pesquisa identificou evidências para se estimar a aptidão cardiorrespiratória através de um método sem exercícios apresentando baixo custo e risco a saúde dos idosos, desta forma, não necessitando a utilização de locais específicos e com equipamentos como bicicletas e esteiras ergométricas e também não havendo a necessidade de profissionais especializados na aplicação dos referidos testes

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Modelos de predição baseados em estimações não-paramétricas continuam em desenvolvimento e têm permeado a comunidade quantitativa. Sua principal característica é que não consideram a priori distribuições de probabilidade conhecidas, mas permitem que os dados passados sirvam de base para a construção das próprias distribuições. Implementamos para o mercado brasileiro os estimadores agrupados não-paramétricos de Sam e Jiang (2009) para as funções de drift e de difusão do processo estocástico da taxa de juros instantânea, por meio do uso de séries de taxas de juros de diferentes maturidades fornecidas pelos contratos futuros de depósitos interfinanceiros de um dia (DI1). Os estimadores foram construídos sob a perspectiva da estimação por núcleos (kernels), que requer para a sua otimização um formato específico da função-núcleo. Neste trabalho, foi usado o núcleo de Epanechnikov, e um parâmetro de suavizamento (largura de banda), o qual é fundamental para encontrar a função de densidade de probabilidade ótima que forneça a estimação mais eficiente em termos do MISE (Mean Integrated Squared Error - Erro Quadrado Integrado Médio) no momento de testar o modelo com o tradicional método de validação cruzada de k-dobras. Ressalvas são feitas quando as séries não possuem os tamanhos adequados, mas a quebra estrutural do processo de difusão da taxa de juros brasileira, a partir do ano 2006, obriga à redução do tamanho das séries ao custo de reduzir o poder preditivo do modelo. A quebra estrutural representa um processo de amadurecimento do mercado brasileiro que provoca em grande medida o desempenho insatisfatório do estimador proposto.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

One of the most important goals of bioinformatics is the ability to identify genes in uncharacterized DNA sequences on world wide database. Gene expression on prokaryotes initiates when the RNA-polymerase enzyme interacts with DNA regions called promoters. In these regions are located the main regulatory elements of the transcription process. Despite the improvement of in vitro techniques for molecular biology analysis, characterizing and identifying a great number of promoters on a genome is a complex task. Nevertheless, the main drawback is the absence of a large set of promoters to identify conserved patterns among the species. Hence, a in silico method to predict them on any species is a challenge. Improved promoter prediction methods can be one step towards developing more reliable ab initio gene prediction methods. In this work, we present an empirical comparison of Machine Learning (ML) techniques such as Na¨ýve Bayes, Decision Trees, Support Vector Machines and Neural Networks, Voted Perceptron, PART, k-NN and and ensemble approaches (Bagging and Boosting) to the task of predicting Bacillus subtilis. In order to do so, we first built two data set of promoter and nonpromoter sequences for B. subtilis and a hybrid one. In order to evaluate of ML methods a cross-validation procedure is applied. Good results were obtained with methods of ML like SVM and Naïve Bayes using B. subtilis. However, we have not reached good results on hybrid database

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Nowadays, classifying proteins in structural classes, which concerns the inference of patterns in their 3D conformation, is one of the most important open problems in Molecular Biology. The main reason for this is that the function of a protein is intrinsically related to its spatial conformation. However, such conformations are very difficult to be obtained experimentally in laboratory. Thus, this problem has drawn the attention of many researchers in Bioinformatics. Considering the great difference between the number of protein sequences already known and the number of three-dimensional structures determined experimentally, the demand of automated techniques for structural classification of proteins is very high. In this context, computational tools, especially Machine Learning (ML) techniques, have become essential to deal with this problem. In this work, ML techniques are used in the recognition of protein structural classes: Decision Trees, k-Nearest Neighbor, Naive Bayes, Support Vector Machine and Neural Networks. These methods have been chosen because they represent different paradigms of learning and have been widely used in the Bioinfornmatics literature. Aiming to obtain an improvment in the performance of these techniques (individual classifiers), homogeneous (Bagging and Boosting) and heterogeneous (Voting, Stacking and StackingC) multiclassification systems are used. Moreover, since the protein database used in this work presents the problem of imbalanced classes, artificial techniques for class balance (Undersampling Random, Tomek Links, CNN, NCL and OSS) are used to minimize such a problem. In order to evaluate the ML methods, a cross-validation procedure is applied, where the accuracy of the classifiers is measured using the mean of classification error rate, on independent test sets. These means are compared, two by two, by the hypothesis test aiming to evaluate if there is, statistically, a significant difference between them. With respect to the results obtained with the individual classifiers, Support Vector Machine presented the best accuracy. In terms of the multi-classification systems (homogeneous and heterogeneous), they showed, in general, a superior or similar performance when compared to the one achieved by the individual classifiers used - especially Boosting with Decision Tree and the StackingC with Linear Regression as meta classifier. The Voting method, despite of its simplicity, has shown to be adequate for solving the problem presented in this work. The techniques for class balance, on the other hand, have not produced a significant improvement in the global classification error. Nevertheless, the use of such techniques did improve the classification error for the minority class. In this context, the NCL technique has shown to be more appropriated

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Pós-graduação em Agronomia (Ciência do Solo) - FCAV

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Pós-graduação em Genética e Melhoramento Animal - FCAV

Relevância:

100.00% 100.00%

Publicador:

Resumo:

This dissertation, whose research has been conducted at the Group of Electronic and Microelectronic Design (GDEM) within the framework of the project Power Consumption Control in Multimedia Terminals (PCCMUTE), focuses on the development of an energy estimation model for the battery-powered embedded processor board. The main objectives and contributions of the work are summarized as follows: A model is proposed to obtain the accurate energy estimation results based on the linear correlation between the performance monitoring counters (PMCs) and energy consumption. the uniqueness of the appropriate PMCs for each different system, the modeling methodology is improved to obtain stable accuracies with slight variations among multiple scenarios and to be repeatable in other systems. It includes two steps: the former, the PMC-filter, to identify the most proper set among the available PMCs of a system and the latter, the k-fold cross validation method, to avoid the bias during the model training stage. The methodology is implemented on a commercial embedded board running the 2.6.34 Linux kernel and the PAPI, a cross-platform interface to configure and access PMCs. The results show that the methodology is able to keep a good stability in different scenarios and provide robust estimation results with the average relative error being less than 5%. Este trabajo fin de máster, cuya investigación se ha desarrollado en el Grupo de Diseño Electrónico y Microelectrónico (GDEM) en el marco del proyecto PccMuTe, se centra en el desarrollo de un modelo de estimación de energía para un sistema empotrado alimentado por batería. Los objetivos principales y las contribuciones de esta tesis se resumen como sigue: Se propone un modelo para obtener estimaciones precisas del consumo de energía de un sistema empotrado. El modelo se basa en la correlación lineal entre los valores de los contadores de prestaciones y el consumo de energía. Considerando la particularidad de los contadores de prestaciones en cada sistema, la metodología de modelado se ha mejorado para obtener precisiones estables, con ligeras variaciones entre escenarios múltiples y para replicar los resultados en diferentes sistemas. La metodología incluye dos etapas: la primera, filtrado-PMC, que consiste en identificar el conjunto más apropiado de contadores de prestaciones de entre los disponibles en un sistema y la segunda, el método de validación cruzada de K iteraciones, cuyo fin es evitar los sesgos durante la fase de entrenamiento. La metodología se implementa en un sistema empotrado que ejecuta el kernel 2.6.34 de Linux y PAPI, un interfaz multiplataforma para configurar y acceder a los contadores. Los resultados muestran que esta metodología consigue una buena estabilidad en diferentes escenarios y proporciona unos resultados robustos de estimación con un error medio relativo inferior al 5%.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

El objetivo principal de esta tesis doctoral es profundizar en el análisis y diseño de un sistema inteligente para la predicción y control del acabado superficial en un proceso de fresado a alta velocidad, basado fundamentalmente en clasificadores Bayesianos, con el prop´osito de desarrollar una metodolog´ıa que facilite el diseño de este tipo de sistemas. El sistema, cuyo propósito es posibilitar la predicción y control de la rugosidad superficial, se compone de un modelo aprendido a partir de datos experimentales con redes Bayesianas, que ayudar´a a comprender los procesos dinámicos involucrados en el mecanizado y las interacciones entre las variables relevantes. Dado que las redes neuronales artificiales son modelos ampliamente utilizados en procesos de corte de materiales, también se incluye un modelo para fresado usándolas, donde se introdujo la geometría y la dureza del material como variables novedosas hasta ahora no estudiadas en este contexto. Por lo tanto, una importante contribución en esta tesis son estos dos modelos para la predicción de la rugosidad superficial, que se comparan con respecto a diferentes aspectos: la influencia de las nuevas variables, los indicadores de evaluación del desempeño, interpretabilidad. Uno de los principales problemas en la modelización con clasificadores Bayesianos es la comprensión de las enormes tablas de probabilidad a posteriori producidas. Introducimos un m´etodo de explicación que genera un conjunto de reglas obtenidas de árboles de decisión. Estos árboles son inducidos a partir de un conjunto de datos simulados generados de las probabilidades a posteriori de la variable clase, calculadas con la red Bayesiana aprendida a partir de un conjunto de datos de entrenamiento. Por último, contribuimos en el campo multiobjetivo en el caso de que algunos de los objetivos no se puedan cuantificar en números reales, sino como funciones en intervalo de valores. Esto ocurre a menudo en aplicaciones de aprendizaje automático, especialmente las basadas en clasificación supervisada. En concreto, se extienden las ideas de dominancia y frontera de Pareto a esta situación. Su aplicación a los estudios de predicción de la rugosidad superficial en el caso de maximizar al mismo tiempo la sensibilidad y la especificidad del clasificador inducido de la red Bayesiana, y no solo maximizar la tasa de clasificación correcta. Los intervalos de estos dos objetivos provienen de un m´etodo de estimación honesta de ambos objetivos, como e.g. validación cruzada en k rodajas o bootstrap.---ABSTRACT---The main objective of this PhD Thesis is to go more deeply into the analysis and design of an intelligent system for surface roughness prediction and control in the end-milling machining process, based fundamentally on Bayesian network classifiers, with the aim of developing a methodology that makes easier the design of this type of systems. The system, whose purpose is to make possible the surface roughness prediction and control, consists of a model learnt from experimental data with the aid of Bayesian networks, that will help to understand the dynamic processes involved in the machining and the interactions among the relevant variables. Since artificial neural networks are models widely used in material cutting proceses, we include also an end-milling model using them, where the geometry and hardness of the piecework are introduced as novel variables not studied so far within this context. Thus, an important contribution in this thesis is these two models for surface roughness prediction, that are then compared with respecto to different aspects: influence of the new variables, performance evaluation metrics, interpretability. One of the main problems with Bayesian classifier-based modelling is the understanding of the enormous posterior probabilitiy tables produced. We introduce an explanation method that generates a set of rules obtained from decision trees. Such trees are induced from a simulated data set generated from the posterior probabilities of the class variable, calculated with the Bayesian network learned from a training data set. Finally, we contribute in the multi-objective field in the case that some of the objectives cannot be quantified as real numbers but as interval-valued functions. This often occurs in machine learning applications, especially those based on supervised classification. Specifically, the dominance and Pareto front ideas are extended to this setting. Its application to the surface roughness prediction studies the case of maximizing simultaneously the sensitivity and specificity of the induced Bayesian network classifier, rather than only maximizing the correct classification rate. Intervals in these two objectives come from a honest estimation method of both objectives, like e.g. k-fold cross-validation or bootstrap.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

As condições inadequadas vivenciadas nas organizações afligem não só os trabalhadores da iniciativa privada, pois são igualmente encontradas no segmento estatal, contrariando a expectativa de que o aparato governamental eliminaria as condições insalubres e criaria outras melhores nas quais prevalecesse à promoção de saúde. Diante desse panorama questionou-se porque, uma vez que, pelo menos do ponto de vista da sociedade leiga, esses servidores estão submetidos a condições privilegiadas de trabalho. O presente estudo objetivou identificar e descrever possíveis relações entre o clima organizacional e o burnout em servidores públicos de uma instituição federal de ensino. Objetivou-se ainda descrever o clima organizacional predominante. A pesquisa realizada teve cunho quantitativo, tipo estudo de caso e exploratória. A coleta de dados deu-se por meio das escalas ECO (escala de clima organizacional), ECB (escala de caracterização do burnout) e um questionário sociodemográfico, todos os instrumentos autoaplicáveis eletronicamente disponíveis à instituição. Participaram do estudo 201 servidores públicos federais, com idade média de 37 anos, majoritariamente de nível superior e casados. Os resultados revelaram que cerca de um quarto dos participantes raramente experimentaram burnout, no entanto outra quarta parte deles frequentemente experimentaram altos níveis de burnout, resultado bastante expressivo. Os servidores perceberam clima organizacional mediano, destacando-se a boa coesão entre os colegas de trabalho e a percepção de baixa recompensa. Merece destaque a grande dispersão entre as percepções de clima, o que permite inferir haver subclimas não identificados nesta investigação, possivelmente ocasionados por uma força de clima fraca e pela participação dos servidores de unidades de ensino geograficamente distintas, geridas por gestores locais com relativa autonomia. Os resultados dos cálculos de correlação revelaram que, quanto menos os participantes percebem apoio da chefia e da organização, coesão entre colegas, e mais controle/pressão, mais exaustos se sentem, mais desumanizam as pessoas com quem tratam e mais se decepcionam no trabalho e vice-versa. Conforto físico menor está associado a maior desumanização e a mais decepção no trabalho e vice-versa; e que controle/pressão, relaciona-se positiva e fracamente com desumanização e vice-versa. Desta forma, a hipótese de que existe associação entre burnout e clima organizacional foi confirmada. Os resultados também revelaram que os servidores com burnout, perceberam pior clima organizacional que os seus pares sem burnout, confirmando a segunda hipótese. Esses servidores também se mostraram neutros quanto à percepção de apoio da chefia e conforto físico; não percebem controle pressão, nem recompensa; todavia percebem coesão entre os colegas. Esses resultados sugerem que os participantes têm se apoiado nessas relações para suportar a indiferença e ausência de estímulos experimentados no trabalho. Os resultados obtidos nesse estudo permitiram concluir que o clima organizacional é fraco, provavelmente influenciado por uma cultura organizacional fraca, explicando a heterogeneidade da percepção do clima organizacional pelos servidores. Além disso, embora haja burnout entre poucos participantes, há que se atentar que cerca de um quarto deles, encontra-se acometido desta síndrome e isto poderá contagiar os demais.